🦊Framepack 1フレーム推論
🏠 | 🦊雑に学ぶComfyUI
👈 | 🦊Framepack
👉 |
参考
https://github.com/kohya-ss/musubi-tuner/blob/main/docs/framepack_1f.mdFramePack One Frame (Single Frame) Inference and Training / FramePack 1フレーム推論と学習
https://note.com/kohya_ss/n/nbd94d074ddef?sub_rt=share_pbFramePackの推論と1フレーム推論、kisekaeichi、1f-mcを何となく理解する
https://github.com/git-ai-code/FramePack-eichi/tree/maingit-ai-code/FramePack-eichi
https://note.com/kazuya_bros/n/n0cd26fe98d53【FramePack】話題の動画生成AIで画像生成的なことをやってみた【eichi】
画像編集として見る動画生成モデル
画像編集の中でも、LoRAを使わずにキャラクターの顔や雰囲気を変えずに「ポーズを変える」「髪型を変える」といった編集をするのはかなり難しいタスクです。ポーズを変えられても別人になっていたりします
そこで、動画生成モデルを画像編集に応用するというアイデアがかなり前からありました
cf. AnimateDiff × prompt travelで一貫性のある表情差分を作る
動画生成モデルは時間的に一貫性のある動画を作ります。最初に出てきたキャラが終盤全く別のキャラに変化してしまうなんてことはありません(昔はよくあったけど)
「キャラクターがジャンプしている動画」を作れば、実質的にジャンプしている差分画像を生成できます
1フレーム(だけ)推論(する)
いいアイデアですが、画像編集として見た場合、欲しいのは「ジャンプ中の1フレーム」だけです。そこ行き着くまでの数十フレームは、ただ推論の時間を増やすだけの邪魔なものです
そこで生まれたのが、中間フレームをすっ飛ばして最終結果だけ得る。1フレーム推論です
(ただ、これが出来るのはFramePackの特殊な設計のおかげらしいので、他の動画生成モデルで同じ事ができるかは分からない)
モデル/カスタムノード
→ 🦊FramePack#686654b10000000000abf706と同じ
パラメータ
https://github.com/git-ai-code/FramePack-eichi/blob/main/README/framepack_oichi_user_friendly_guide.mdFramePack-oichiなんとなく理解ガイド:あの謎パラメータたちとゆる~く仲良くなろう
を読んでください(丸投げ)
聞き馴染みのないパラメータは基本触らなくて良いです
1フレーム推論
https://gyazo.com/8e7fc6c4ed07e836eaa705f70df0b9b3
FramePack_1F.json
🟩FramePack Single Frame Samplerノードを使用
LoRA
画像編集タスクを特殊な動画として捉え(360度回転、落書きから実写へのトランジション)、専用のLoRAを作ることでControlNetにも近い制御が可能になります
cf. https://note.com/tori29umai/n/n3447ca5b1437FramePackのLoRA配布場所
LoRAの保存場所は通常のLoRAと同様です
$ path\to\ComfyUI\models\loras
https://gyazo.com/2bca6af80b21ed99731da4b0615762d9
FramePack_1F_LoRA.json
Kisekaeichi
最初の画像だけでなく、次のセクションにもなにかしら画像を入れると、それを参照画像として画像編集が行われる(らしい)
https://gyazo.com/d274dc358f7e8cd9af8969d24a53711b
FramePack_Kisekaeichi_LoRA.json
🟪KisekaeichiではLoRAが無くても動くはずですが、全く安定しなかったため今回はKohyaさんの着せ替えLoRAを使っています
https://huggingface.co/kohya-ss/misc-models/blob/main/fp-1f-kisekae-1024-v4-2.safetensorsfp-1f-kisekae-1024-v4-2.safetensors
入力画像が小さすぎるとうまく行かないため総ピクセル数が1.0Mになるようにリサイズ
Grounding Dino SAMで入力画像・参照画像ともに服装部分をマスクします
🟦🚨FramePack-eichiの実装に合わせたためだとは思いますが、入力画像のマスクの白黒の役割が逆になっているので反転させます
全然仕組みはわかってないですがVACEみたいなものなので、着せ替えに限った技術ではないですnomadoor.icon